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摘要 : [ 目的 / 意义 ] 主题 识别 研究 对 于 理 清 领域 内 的 知识 结构 与 研究 热点 非常 重要 ， 对 领域 
主题 进行 动态 识别 ， 可 以 很 好 地 帮助 研究 人 员 了 解 和 掌握 领域 的 发 展 态 势 及 未 来 走向 。 [ 方法 / 
过 程 ] 利用 张 量 的 数据 结构 形式 ， 在 词 共 现 和 矩阵 中 融入 时 间 维 度 ， 只 需 一 次 聚 类 便 可 进行 动态 


主题 的 识别 。[ 结果 /结论 ] 张 量 结构 及 非 负 张 


量 分 解 算 法 为 词 共 现 频次 变化 视角 下 的 动态 主 


题 识 别提 供 一 种 新 的 方法 ， 该 方法 相 较 于 传统 方法 更 为 简单 快捷 ， 有 效 避 免 了 信息 的 损失 。 
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@@ 引 言 

在 信息 时 代 背 景 下 ， 随 着 科技 文献 数量 的 
迅猛 增长 ， 研 究 人 员 无 法 在 短 时 间 内 吸收 和 和 掌 
握 数 以 万 计 的 研究 成 果 ， 即 便 是 针对 范围 狭 罕 
的 领域 进行 密切 关注 、 持 续 阅 读 ， 仍 难 理 清 该 
领域 的 研究 热点 和 研究 方向 站。 因此 ， 对 领域 
主题 的 挖 据 与 演化 研究 则 显得 尤为 重要 ， 它 可 
以 很 好 地 帮助 研究 人 员 了 解 和 掌握 领域 的 发 展 
态势 及 未 来 走向 ， 也 是 解决 信息 大 爆炸 时 代 情 
报 危 机 的 有 效 方法 “。 本 文 基于 词 共 现 频次 变 
化 视角 对 动态 主题 识别 方法 进行 探讨 ， 旨 在 为 
科技 决策 提供 更 好 的 支持 。 


全 研究 现状 


主题 识别 与 演化 研究 是 利用 文献 特征 项 之 


间 的 关联 关系 对 文献 集合 进行 分 析 从 而 发 现 主 
题 ， 并 通过 主题 揭示 文献 集合 中 蕴涵 的 内 容 ， 
以 了 解 当 前 领域 的 研究 热点 并 预测 未 来 的 发 展 
趋势 外。 在 主题 识别 与 演化 分 析 研 究 中 ， 相 关 
学 者 已 经 开展 了 大 量 研 究 ， 根 据 研究 对 象 由 浅 
及 深 可 分 为 基于 文献 外 部 引用 关系 的 方法 、 基 
于 文献 内 部 词 分 析 的 方法 、 基 于 全 文 内 容 文本 
挖掘 的 方法 等 。 

基于 文献 引用 关系 的 分 析 方 法 可 分 为 文献 
共 被 引 法 、 文 献 耦 合法 以 及 文献 间 的 直接 引用 
法 等 ， 主 要 是 利用 文献 之 间 的 引用 关系 来 判断 
文献 之 间 的 关联 程度 ， 从 而 对 文献 进行 划分 ， 
达到 主题 聚 类 的 目的 5 。 例 如 祝 清松 等 提出 基 
于 引文 主 路 径 文献 共 被 引 的 主题 演化 分 析 方 法 ， 
通过 对 引文 主 路 径 上 关键 文献 的 共 被 引 分 析 来 
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<= 
fan PLY EE ao; 黄 福 等 通过 
核心 文献 与 其 被 引文 献 进行 耦合 分 析 ， 再 通过 
核心 文献 及 其 施 引 文献 进行 共 被 引 分 析 ， 进 而 
Ay BNF EEE HT I, RESEDA SCI 和 
SSCI 收录 的 7 种 情报 学 期 刊 在 2000-2010 年 间 
的 数据 为 样本 ， 以 作者 文献 耦合 分 析 方法 为 研 
究 视 角 ， 探寻 新 世纪 以 来 情报 学 的 知识 结构 中。 

基于 词 分 析 的 方法 主要 分 为 词 频 分 析 法 和 
词 共 现 分 析 法 ， 词 频 分 析 法 是 通过 统计 文献 中 
关键 词 出 现 频次 的 高 低 变化 来 确定 领域 的 研究 
重点 及 热点 中， 词 共 现 分 析 法 则 是 通过 统计 一 
组 词 共同 出 现 的 次 数 来 分 析 词 之 间 的 关联 关系 ， 
从 而 对 词 进 行 聚 类 得 到 主题 上。 例如 奉 国 和 等 
基于 生命 周期 理论 和 词 频 分 析 方 法 ， 对 学 科 领 
域 发 展 过 程 进行 客观 合理 的 动态 跟踪 与 分 析 口 1; 
储 节 上 旺 等 运用 词 频 分 析 法 ， 通 过 对 文献 关键 词 
的 词 频 统 计 ， 进 而 对 近 10 年 来 知识 管理 领域 的 
研究 热点 、 应 用 领域 和 研究 方法 进行 分 析 中 ，; 
Le EE Fil FA CNKI 数据库 通 过 词 频 分 析 法 结合 
共 词 分 析 法 对 2005-2016 年 我 国 科 学 数据 领域 的 
研究 主题 进行 演化 分 析 "…; 赵 丽 梅 等 以 共 词 分 
析 为 基本 研究 框架 ， 揭 示 大 数据 背景 下 数字 图 
书馆 研究 领域 的 主流 研究 范式 ， 为 后 续 人 研究 提 
供 内 容 基础 和 理论 依据 | ER ERA ACT 
判读 法 提炼 出 基于 共 词 分 析 法 的 学 科 主 题 演化 
研究 分 析 流 程 的 5 个 步 台 ， 并 对 每 个 步骤 中 研 
究 人 员 使 用 的 策略 、 分 析 手 段 和 工具 进行 归纳 
总 结 US, 

基于 文本 挖掘 的 方法 则 是 通过 文本 挖掘 技 
术 对 主题 进行 抽取 ， 并 用 相关 评价 标准 对 主题 
进行 分 类 。 例 如 胡 吉 明 等 构建 了 适用 于 动态 文 
本 内 容 主题 挖掘 的 LDA 模型 "50; 杨 超 等 构建 
了 基于 “主语 一 行为 一 宾语 ” 
object, SAO ) 结构 的 LDA 主题 模型 ， 实 现 对 专 
利文 献 主题 结构 的 识别 和 分 析 已 ; J. Kim 等 通 
过 文本 挖 据 和 决策 树 的 方法 进行 技术 预测 ， 从 
论文 作者 、 期 刊 、 所 属 领 域 及 专利 的 专利 权 人 、 
所 属 领域 等 字段 中 抽取 能 代表 技术 主题 领域 的 
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其 中 ， 基 于 词 共 现 分 析 的 方法 可 以 深入 到 
文献 内 部 ， 既 关注 词 出 现 的 频次 大 小 ， 也 考虑 
了 词 间 的 语义 关系 ， 是 当前 较为 广泛 使 用 的 一 
种 方法 。 因 此 ， 本 文 考虑 基于 词 共 现 的 分 析 方 
法 对 领域 主题 进行 挖 气 。 传 统 基于 词 共 现 分 析 
对 多 个 周期 的 主题 进行 动态 识别 时 ， 通常 是 基 
于 二 维 数据 一 一 要 么 是 根据 各 年 份 的 词 频 变化 
和 矩阵 进行 聚 类 ; 要 么 是 先 按 年 份 对 词 进 行 时 间 
切片 ， 然 后 分 别 构造 词 共 现 矩 阵 进行 单独 多 次 
聚 类 ， 从 而 实现 动态 主题 识别 。 前 一 种 方法 未 
考虑 词 间 的 语义 关系 ， 后 一 种 方法 则 需要 进行 
多 次 聚 类 ， 损 失 了 大 量 信息 。 本 文 考虑 借助 张 
量 的 数据 结构 形式 ， 在 词 共 现 和 矩阵 上 融入 时 间 
维度 ,构造 三 维 数据 ， 并 基于 非 负 张 量 分 解 算 
法 只 需 一 次 聚 类 便 可 得 到 各 年 份 的 主题 情况 ， 
有 效 减少 了 数据 的 损失 。 


Ow 
本 文 的 具体 研究 思路 如 图 1 所 示 : 


词 共 现 频次 变化 视角 


二 维 数据 


动态 主题 识别 
1 研究 框架 

为 了 在 词 共 现 和 矩阵 中 融入 时 间 维 度 ， 从 

词 共 现 频次 变化 视角 下 进行 动态 主题 识别 ， 本 

文 首 先 对 词 共 现 矩阵 的 构造 方式 、 数 据 处 理 方 


式 以 及 聚 类 方法 进行 探讨 。 中 词 共 现 和 矩阵 的 构 
建 。 文 献 是 关键 词 的 载体 ， 而 作者 是 科学 人 研究 
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的 主体 ， 二 者 所 使 用 的 关键 词 集合 对 领域 的 知 
识 结构 有 着 不 同 的 反映 ， 因 此 ， 本 文 考虑 分 别 
从 文献 视角 和 作者 视角 构建 关键 词 共 现 矩阵 ， 
并 将 两 种 视角 下 的 矩阵 进行 融合 ， 比 较 基 于 三 
种 关键 词 共 现 矩阵 得 到 的 主题 识别 结果 的 差异 。 
@) 词 共 现 矩阵 的 处 理 。 在 基于 共 现 数据 进行 研 
究 时 ， 有 学 者 指出 直接 在 原始 数据 上 进行 分 析 
即 可 中， 有 学 者 则 认为 需要 对 原始 数据 进行 标 
准 化 处 理 后 再 进行 分 析 ""， 在 以 往 基 于 关键 词 
共 现 的 主题 识别 研究 中 ， 关 于 共 现 矩阵 是 否 需 
要 以 及 如 何 进 行 标准 化 处 理 尚 无 统一 定论 ， 因 
此 ， 本 文 分 别 从 对 称 视角 和 非 对 称 视角 对 关键 
词 共 现 和 矩阵 进行 标准 化 处 理 ， 对 比 是 否 进行 标 
准 化 操作 以 及 不 同 的 标准 化 处 理 操作 方式 对 主 
题 识 别 结果 的 影响 。 名 词 共 现 矩 阵 的 聚 类 方法 。 
非 负 和 矩阵 分 解 算法 相 较 于 传统 聚 类 算法 ( 系统 
聚 类 法 、 主 成 分 分 析 、 奇 异 值 分 解 等 ) 可 以 有 
效 避 免 关 键 词 与 类 团 的 单 属性 以 及 权重 值 为 负 
等 不 足 ， 而 非 负 张 量 分 解 是 非 负 和 矩阵 分 解 在 高 
维 空间 的 拓展 ， 因 此 ， 本 文 首先 明确 非 负 矩阵 
分 解 算法 相对 传统 聚 类 算法 的 有 效 性 ， 然 后 比 
较 非 负 分 解 算法 与 非 负 张 量 分 解 算法 在 动态 主 
AB PSE 


@ 数 据 集 及 研究 方法 
4.1 数据 集 


4.1.1 数据 集 的 构建 

本 文 在 WebofScience 数 据 库 中 以 
“knowledge management” 为 主题 词 检索 了 国 
外 知识 管理 领域 相关 文献 ， 文 献 类 型 限定 为 
“article”， 文 献 时 间 为 “2017-2021 年 ”， 共 
检索 到 4 898 篇 文献 ， 包 含 11 343 个 关键 词 字 
段 和 12 178 个 作者 字段 ， 通 过 对 数据 字段 进行 
清理 ， 去 除 本 位 词 “knowledge management” 的 
影响 ， 选 择 频 次 大 于 1 的 关键 词 进行 研究 ， 并 
按 如 下 三 种 方式 构建 本 文 所 需 的 关键 词 共 现 矩 
阵 : 

(1 ) 文 献 视角 下 的 关键 词 共 现 矩阵 构建 。 
假设 K7” ”为 关键 词 一 文献 共 现 和 矩阵， 其 中 六 
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RET, p 为 文献 数 ， 和 矩阵 元 素 为 关键 词 
在 文献 中 出 现 的 次 数 ， 显 然 K7” 为 0-1 (AE 
阵 ， 则 基于 文献 的 关键 词 共 现 和 矩阵 47”” 可 定 
义 为 : 
APO ERT ORT AA (1) 
(2) 作者 视角 下 的 关键 词 共 现 矩阵 构建 。 
同样 地 ， 假 设 KR 为 关键 词 一 作者 共 现 矩阵 ， 
FE m 为 关键 词 数 ，4 为 作者 数 ， 和 矩阵 元 素 为 
作者 使 用 关键 词 的 次 数 ， 则 基于 作者 的 关键 词 
FEB PE AR" 可 定义 为 : 
AR””"=KR""* (KR) 公式 (2) 
(3) 融合 文献 和 作者 双 视 角 下 的 关键 词 共 
现 和 矩阵 构建 。 考 虑 到 无 论 是 基于 文献 还 是 基于 
作者 的 关键 词 共 现 本 质 上 都 是 计算 关键 词 共 同 
出 现 的 次 数 ， 区 别 在 于 一 个 从 文献 视角 考虑 ， 
一 个 从 作者 视角 考虑 。 对 同一 个 领域 来 说 ， 某 
一 时 间 段 内 其 所 包含 的 研究 成 果 是 一 定 的 ， 由 
于 科技 文献 是 研究 成 果 的 载体 ， 而 作者 是 科学 
研究 的 主体 ， 二 者 互 为 补充 ， 从 不 同 视角 对 领 
域内 的 研究 情况 进行 了 划分 ， 因 此 本 文 考虑 同 
时 结合 这 两 个 视角 ， 融 合 文献 和 作者 的 关键 词 
FEB ME ATR" 可 定义 为 : 
ATR" =AT""+AR"™ 
4.1.2 数据 处 理 
C1 ) 对 称 视角 下 的 标准 化 处 理 。 2009 年 , N. 
J. van ECK 等 指出 在 对 共 现 数据 进行 分 析 时 需要 
利用 相似 性 度量 来 标准 化 数据 ， 并 对 比 了 几 种 
常用 的 相似 性 度量 方法 (关联 强度 、 余 弦 相 似 
度 、 包 含 指数 、Jaccard 指数 ) ， 发 现 基 于 概率 
的 相似 性 度量 方法 (关联 强度 ) 效果 要 好 于 基 
于 集合 论 的 度量 方法 (余弦 相似 度 、 包 含 指数 、 
Jaccard 指数 ) 中 。 因 此 ， 本 文 将 利用 关联 强度 
计算 公式 对 关键 词 共 现 矩 阵 进行 标准 化 处 理 。 
以 融合 文献 和 作者 的 关键 词 共 现 矩阵 ATR" 为 
例 ， 记 和 矩阵 47R"”” 第 i 行 第 j 列 的 元 素 为 atr,， 
按 公 式 (4) 对 其 进行 相似 化 处 理 后 得 到 和 矩阵 
ATR™™ 


公式 (3) 


2 


atr, 
atr, = Z (i, 7 =1,2,---,m) 
atr, *atr;, 


公式 (4) 
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(2) 非 对 称 视角 下 的 标准 化 处 理 。 上 述 
方法 是 在 对 称 视角 下 对 关键 词 共 现 和 矩阵 进行 
了 标准 化 处 理 ， 虽然 两 个 关键 词 的 共 现 频次 
是 唯一 的 ， 但 是 受 单个 关键 词 出 现 频次 的 影 
响 ， 高 频 关键 词 与 很 多 词 存在 关联 ， 而 低频 
词 只 与 少数 词 存 在 关联 ， 因 此 从 高 频 词 视角 
下 计算 的 关联 度 与 从 低频 词 视 角 下 计算 的 关联 
度 是 不 同 的 ， 本 文 考虑 利用 公式 (5 ) 对 矩阵 
ATR" 进行 非 对 称 视角 下 的 相似 性 度量 得 到 算 
阵 ATR", 


» Ql 
atr; =— 
atr 


4.2 研究 方法 
4.2.1 非 负 和 矩阵 分 解 

非 负 和 矩阵 分 解 起 源 于 主 成 分 分 析 ， 最 早 由 
P. Paatero 等 上 提出， 被 称 为 正和 矩阵 分 解 ， 其 基 
本 思想 是 将 一 个 非 负 的 矩阵 分 解 为 左右 两 个 非 
负 和 抢 阵 的 乘积 。 对 于 关键 词 共 现 和 矩阵 4sR” 来 
说 ，m RIKE ZE, AA EEN A WIE E 


Cl 
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阵 分 解 算法 将 其 分 解 为 4”” Ue *V””， 其 中 
和 矩阵 V” 的 行 可 以 解释 为 > 个 主题 ， 每 行 元 素 
表示 为 词 表 中 m 个 关键 词 在 该 主题 中 的 非 负 权 
重 ,， 因 此 可 以 对 词 表 的 每 一 行 按 权重 值 大 小 进 
行 排列 ， 从 而 得 到 每 个 主题 所 包含 的 关键 词 种 
类 ， 并 根据 关键 词 的 权重 值 大 小 对 主题 进行 命 
名 P4 
4.2.2 非 负 张 量 分 解 

张 量 是 一 个 多 维 数组 ， 最 常用 的 张 量 分 解 
方法 有 CP 分 解 和 Tucker 分 解 C, CP 分 解 是 将 
一 个 nn 阶 张 量 分 解 成 多 个 秩 为 1 的 张 量 的 和 的 
FEE", Tucker 分 解 则 是 将 其 分 解 成 一 个 核心 
张 量 与 若干 个 因子 矩 阵 乘 积 的 形式 ， 核 心 张 量 
可 以 看 成 原 张 量 的 浓缩 形式 中， 当 核 心 张 量 是 
一 个 对 角 的 张 量 时 ，Tucker 分 解 则 退化 成 了 CP 
afie PP ( 见 图 2) 。 非 负 张 量 分 解 则 是 非 负 算 
阵 分 解 在 高 维 空间 中 的 拓展 ， 它 既 保 留 了 张 量 
的 优点 ， 又 避免 了 负 元 素 的 出 现 ， 被 广泛 应 用 
于 图 像 处 理 、 音 频 分 类 文本 挖掘 等 领域 。 
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2 三 阶 张 量 的 CP 分 解 与 Tucker 分 解 


在 利用 非 负 张 量 分 解 进行 主题 识别 时 ， 
首先 需要 构建 一 个 合适 的 张 量 ， 以 三 阶 张 
量 为 例 ， 由 于 本 文 是 基于 关键 词 共 现 频次 变 
化 视角 进行 动态 主题 识别 ， 因 此 本 文 构建 了 
< 关键 词 ， 关 键 词 ， 年份 > 的 三 阶 张 量 
XPE, WME 3 所 示 ， 其 中 关键 词 共 现 矩阵 中 
的 黑色 圆圈 代表 关键 词 之 间 的 共 现 强度 ， 对 
该 张 量 进行 非 负 张 量 分 解 便 可 得 到 因子 矩阵 
A**、B*“、C*™， 以 及 核心 张 量 和 A**“， 其 中 
代表 关键 词 种 类 数 , KREZ, RREK 
类 个 数 ， 与 非 负 和 矩阵 分 解 算法 结果 类 似 ， 非 


负 张 量 分 解 算法 中 的 因子 矩阵 ABE BT 
解释 为 R 个 主题 以 及 每 个 主题 下 包含 的 关键 
词 种 类 及 权重 值 大 小 ， 且 两 个 因子 矩阵 下 的 
聚 类 结果 一 致 ， 此 外 因子 矩阵 C" “还 可 解释 
为 RR 个 主题 在 各 个 年 份 所 占 的 权重 值 即 主题 
研究 热度 ， 核 心 张 量 人“ 则 可 解释 为 R 个 
主题 的 综合 强度 , 由 此 便 将 < 关键 词 , 关键 词 ， 
年 份 > 的 三 阶 张 量 降 维 成 了 < 主题 ,年份 > 
的 二 阶 矩 阵 ， 从 而 可 以 进行 主题 的 动态 识别 ， 
如 图 3 所 示 ， 主 题 框 中 的 黑色 圆圈 大 小 代表 
主题 在 该 年 份 所 出 现 的 强度 大 小 。 
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3 基于 非 负 张 量 分 解 算法 的 动态 主题 识别 示意 图 


全 结果 分 析 

基于 词 共 现 频 次 变化 视角 进行 动态 主题 识 
别 时 ， 首 先 需 要 构造 合适 的 词 共 现 和 矩阵 ， 因 此 
本 文 首先 对 几 种 词 共 现 和 矩阵 的 构造 方式 及 数据 
处 理 方法 进行 对 比 ， 然 后 选择 合适 的 方法 进行 
张 量 的 构造 与 动态 主题 的 识别 。 本 文 首先 进行 
了 两 组 对 照 实验 ， 第 一 组 实验 对 比 了 基于 文献 
的 关键 词 共 现 和 矩阵、 基于 作者 的 关键 词 共 现 矩 
阵 以 及 融合 文献 与 作者 的 关键 词 共 现 和 矩阵 在 主 
题 识 别 结果 上 的 差异 ; 第 二 组 实验 在 第 一 组 实 
验 结果 的 基础 上 ， 选 择 一 种 数据 集 构建 方式 ， 
对 比 了 共 现 矩阵 进行 相似 化 处 理 操 作对 主题 识 
别 结果 的 影响 。 
5.1 数据 集 构 建 组 实验 结果 分 析 

通过 多 次 实验 发 现 ， 当 类 团 数 多 于 5 类 时 ， 
会 出 现 部 分 类 团 中 的 关键 词 高 度 重生 的 情形 ， 
因此 本 文 将 类 团 数 定 为 5 类， 三 种 关键 词 共 现 
和 矩阵 下 的 非 负 和 矩阵 分 解 聚 类 结果 见 表 1。 可 以 看 
出 ， 非 负 和 矩阵 分 解 算法 下 的 聚 类 结果 中 各 类 团 
里 的 关键 词 权 重 值 大 小 均 非 负 ， 弥 补 了 主 成 分 
分 析 中 权重 值 可 正 可 负 的 不 足 ， 各 类 团 中 的 关 
键 词 种 类 也 有 重复 ， 弥 补 了 系统 聚 类 法 中 一 个 
关键 词 只 属于 一 个 类 团 的 不 足 ， 与 现实 情况 相 
WE. APRA, = Fre ete SEALE E PER 
类 结果 有 既 存 在 相同 之 处 也 呈现 出 差异 : 

首先 ， 三 种 关键 词 共 现 和 矩阵 下 每 个 类 团 
中 的 主导 词 ( 权重 值 最 高 的 关键 词 ) 基本 一 


致 ， 这 些 主导 词 可 以 辅助 于 类 团 的 命名 ， 由 此 
说 明 不 管 是 在 文献 视角 下 还 是 作者 视角 下 ， 

国外 知识 管理 领域 近 5 年 的 研究 热点 基本 相 
同 ， 主 要 有 Knowledge Sharing, Innovation, 

Intellectual capital, Knowledge, Organizational 
performance, SEMs 等 ; 不 同 之 处 在 于 每 个 大 
主题 下 的 研究 方向 有 所 差异 ( 即 每 个 类 团 中 
权重 值 低 的 关键 词 种 类 有 所 差异 ) ， 如 文献 
视角 下 的 Innovation 主题 中 的 关键 词 按 权重 
值 排 序 依次 为 SMEs、Performance、Dynamic 
capabilities, Entrepreneurship 等 ， 作 者 视角 下 
Innovation 主题 中 的 关键 词 按 权重 值 排序 依次 
为 SMEs, Dynamic capabilities, Organizational 


performance, Information technology 等 ， 两 种 视 
角 下 的 创新 主题 研究 都 聚焦 于 企业 ， 但 文献 视 
角 下 的 企业 创新 侧重 于 企业 家 精神 ， 而 作者 视 
角 下 的 企业 创新 侧重 于 信息 技术 。 

此 外 ， 通 过 jaccard 相似 度 算法 计算 出 每 种 
聚 类 结果 下 各 主题 之 间 的 关联 度 ， 得 到 关联 度 
均值 、 极 差 和 标准 差 等 统计 数据 (图 4- 图 6)。 
可 以 看 出 ， 基 于 文献 视角 的 聚 类 结果 中 每 个 主 
题 与 该 聚 类 结果 下 其 他 主题 的 关联 度 均 值 都 是 
最 高 ， 且 极 差 和 标准 差 最 小 ; 基于 作者 视角 的 
聚 类 结果 中 每 个 主题 与 该 聚 类 结果 下 其 他 主题 
的 关联 度 均 值 都 比较 低 ， 且 极 差 和 标准 差 都 较 
大 ; 而 融合 两 种 视角 下 关键 词 共 现 矩 阵 的 聚 类 
结果 的 主题 关联 度 统计 数据 介 于 单 视 角 结 果 之 
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表 1 [MARIAM RA 
AEF SCHR XR SERIE IIE R 
题 3 


Or, 


基于 文献 和 作者 的 


目 基 于 文献 


关键 局 


目 基 于 作者 


JOSIE We IHR 
主题 3 


leaming 0.108 
关键 词 共 现 和 矩阵 聚 类 结果 
主题 3 主题 4 主题 5 
i Kita RE 
0.885 
Knowledge transfer 0.181 
0.168 
Open innovation 0.118 
Big data 0.115 


主题 1 主题 2 主题 3 主题 4 主题 5 
图 4 三 种 矩阵 聚 类 结果 主题 之 间 的 关联 度 均 值 


目 基 于 文献 


主题 1 主题 2 


田 基 于 作者 


目 基 于 文献 和 作者 


主题 3 主题 4 主题 5 


图 5 三 种 矩阵 聚 类 结果 主题 之 间 的 关联 度 极 差 


间 。 由 此 说 明 ， 作 者 视角 下 的 聚 类 结果 中 各 主 
题 之 间 的 区 分 度 比 文献 视角 下 的 聚 类 结果 主题 
区 分 度 更 为 明显 ， 这 是 由 于 文献 数量 远 多 于 作 
者 数量 ， 文 献 视角 下 的 聚 类 结果 可 以 对 领域 主 
题 进行 深入 的 挖 据 ， 而 作者 视角 下 的 聚 类 结果 
可 以 对 领域 主题 进行 全 面 的 识别 。 结 合 三 种 聚 
类 结果 下 各 主题 所 包含 的 关键 词 个 数 ( 见 图 7 ) 


202 


可 知 ， 文 献 视角 下 的 每 个 主题 所 包含 的 关键 词 
种 类 较 作 者 视角 下 的 关键 词 种 类 更 多 ， 即 主题 
内 容 挖 掘 得 更 为 这 和 细致。 因此， 融合 了 文献 
和 作者 的 关键 词 共 现 和 矩阵 相 较 于 单一 视角 下 的 
关键 词 共 现 和 矩阵 聚 类 结果 既 能 全 面 地 反映 领域 
内 的 研究 情况 ， 又 能 对 人 研究 内 容 进行 深入 细致 
的 挖掘 。 
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6 三 种 和 矩阵 聚 类 结果 主题 之 间 的 关联 度 标准 差 
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© 


主题 2 


主题 1 


目 基 于 作者 


主题 3 主题 4 主题 5 
主题 种 类 

日 融 合 文献 与 作者 
主题 3 主题 4 主题 5 
主题 种 类 


7 三 种 和 矩阵 聚 类 结果 各 主题 的 关键 词 种 类 关 


该 组 实验 结果 表明 : 文献 是 新 知识 、 新 技 
术 的 载体 ， 代 表 了 一 个 领域 的 最 新 研究 成 果 ， 
随 着 知识 大 爆炸 时 代 的 来 临 ， 文 献 数量 迅猛 增 
长 ， 基 于 文献 的 关键 词 共 现 和 矩阵 聚 类 结果 可 以 
表征 一 个 领域 内 的 热门 研究 主题 与 研究 前 沿 ， 
且 由 于 文献 数量 远 远 多 于 作者 数量 ,文献 视角 
下 的 关键 词 共 现 矩阵 可 以 对 领域 内 的 研究 情况 
进行 更 为 细致 深入 的 挖掘 ; 而 作者 则 是 长 期 耕 
未 在 某 一 研究 方向 上 的 创造 者 ， 基 于 作者 的 关 
键 词 共 现 和 矩阵 聚 类 结果 可 以 表征 领域 内 的 经 典 
研究 主题 ， 且 对 领域 内 的 研究 情况 进行 全 面 的 
反映 。 融 合 了 文献 和 作者 的 关键 词 共 现 矩阵 的 
聚 类 结果 有 既 能 全 面 又 能 次 入 细致 地 反映 领域 内 
的 研究 情况 。 
5.2 数据 集 处 理 组 实验 结果 分 析 

第 一 组 实验 结果 表明 : 基于 融合 文献 和 
作者 双 视 角 的 关键 词 共 现 矩阵 的 主题 识别 结 
果 能 更 好 地 反映 领域 内 的 研究 情况 ， 因 此 本 


文 以 该 矩阵 为 例 继续 进 行 下 一 步 分 析 。 首 先 
对 融合 文献 和 作者 双 视 角 下 的 关键 词 共 现 和 矩 
阵 在 对 称 视角 下 和 非 对 称 视角 下 进行 标准 化 
处 理 ， 然 后 利用 非 负 和 矩阵 分 解 算法 对 经 标准 
化 操作 处 理 前 后 的 关键 词 共 现 矩阵 进行 队 类 ， 
聚 类 结果 见 表 2。 

可 以 看 出 ， 未 经 标准 化 处 理 的 共 现 矩阵 
聚 类 结果 与 在 非 对 称 视角 下 进行 标准 化 处 理 的 
共 现 矩阵 聚 类 结果 存在 部 分 主题 的 主导 词 相 同 
的 情况 (如 Knowledge sharing、Innovation、 
Knowledge 等 ) ， 而 在 对 称 视角 下 进行 标准 化 处 
理 的 共 现 矩阵 聚 类 结果 则 差异 较 大 ， 通 过 查看 
原始 数据 发 现 ， 未 经 标准 化 操作 和 在 非 对 称 视 
角 下 进行 标准 化 操作 的 聚 类 结果 中 各 主题 下 的 
主导 词 一 般 为 高 频 关键 词 ， 且 类 团 中 的 关键 词 
权重 值 差 异 明显 ， 而 在 对 称 视角 下 进行 标准 化 
操作 的 聚 类 结果 中 各 主题 下 的 关键 词 出 现 的 频 
次 都 比较 低 ， 且 各 类 团 中 的 关键 词 权 重 差异 不 
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表 2 相似 化 处 理 前 后 聚 类 结果 


REACH RER RRS R 
E 题 3 


主题 1 主题 2 主题 4 主题 5 
关键 词 iad ù i 
trust 
Tacit knowledge 
主题 1 ER Er = 题 5 
关键 词 权重 关键 词 权重 关键 词 权重 关键 词 权重 Kütid 权重 
Information flow analysis 。 0.448 rban governance 0.470 transport technologies 0.499 7 Case management 0.386 Code switching 0.412 
Alumni collaboration 0.448 govemance configuration 。 0.470 pacity mapping 0.499 Process-oriented knowledge management 0.373 Corporate language 0.412 
University alumni 0.448 relational approach 0.470 horizon scanning 0.499 Dynamic business process management 0.358 Language diversity 0,394 
Data flow 0.448 uncertainty 0.326 transport innovation 0.290 ambulatory care information systems 0.311 multinational organisations 0.248 
agricultural ontology 0.157 transition 0.326 transport research 0.290 testing and evaluation of health information technology 0.311 climate 0.229 
非 对 称 相似 化 处 理 关 键 词 共 现年 阵 聚 类 结果 
主题 1 主题 2 主题 3 主题 4 主题 S 
关键 词 权重 关键 词 权重 关键 词 权重 关键 词 权重 关键 词 权重 
(RS osss ontology 0.557 0.541 Sustainability 0.560 
Language diversity 0.070 SMEs 0.198 0.464 Absorptive capacity 0.218 complexity 0.339 
| Knowledge creation 0.070 [EGG 0.091 Semantic web 0.299 Knowledge management 0.201 uncertainty 0.321 
trust 0.067 information technology 0.078 Knowledge management systems 0.163 structural equation modeling 0.196 transition 0.317 
Code switching 0.057 Perfomance © 0.069 Linked Open Data 0.155 Higher education 0.188 urban governane 0.286 


大 ， 这 是 因为 对 称 视角 下 的 标准 化 可 以 消除 高 
频 关 键 词 的 影响 。 此 外 ， 在 非 对 称 视角 下 的 标 
准 化 处 理 操 作 后 的 聚 类 结果 除了 将 高 频 关键 词 
聚拢 ， 也 将 一 部 分 低频 关键 词 进行 聚拢 ， 这 是 
由 于 一 些 关键 词 虽 然 出 现 的 频次 不 高 ， 但 是 每 
一 次 出 现 都 伴随 着 其 他 词 一 起 出 现 ， 这 些 词 的 
关联 度 非 常 高 ， 因 而 被 聚 为 一 类 ， 而 其 他 两 种 
聚 类 结果 则 不 具 这 一 特点 。 

该 组 实验 结果 表明 : 使 用 原始 关键 词 共 现 
矩阵 或 对 其 进行 非 对称 视 角 下 的 标准 化 处 理 ， 
可 以 分 析 领 域内 的 热点 研究 主题 ， 因 为 高 频 关 
键 词 往往 能 代表 某 一 领域 的 研究 重点 与 热点 ， 
其 中 经 非 对 称 标准 化 处 理 后 的 关键 词 共 现 和 矩阵 
聚 类 结果 除了 可 以 研究 高 频 关 键 词 的 类 团 ， 也 
涵盖 了 低频 关键 词 的 聚拢 情况 ， 可 以 更 加 全 面 
地 分 析 领 域内 的 研究 情况 。 使 用 对 称 视角 下 标 
准 化 处 理 的 关键 词 共 现 矩阵 可 以 分 析 领 域内 的 
最 新 前 沿 研究 动向 ， 在 对 称 视角 下 进行 标准 化 
处 理 后 的 聚 类 结果 既 消除 了 高 频 关 键 词 的 影响 ， 
也 未 制 除 关键 词 之 间 的 关联 性 。 

5.3 动态 主题 识别 结果 分 析 

基于 前 两 组 的 实验 结果 ， 第 三 组 实验 仍 以 
融合 了 文献 和 作者 双 视 角 下 的 关键 词 共 现 矩 阵 
数据 为 例 ， 并 进行 非 对 称 视角 下 的 标准 化 处 理 
操作 ， 然 后 对 比 非 负 和 矩阵 分 解 算法 和 非 负 张 量 
分 解 算法 在 动态 主题 识别 过 程 中 的 优 劣 性 。 由 
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于 非 负 和 矩阵 分 解 算法 处 理 的 数据 是 抢 阵 形式 ， 
因此 需要 对 2017-2021 年 期 间 的 关键 词 共 现 和 矩阵 
按 年 进行 时 间 分 片 ， 共 需 进 行 5 次 聚 类 ， 每 年 
聚 类 的 数据 集 为 当年 出 现 的 所 有 关键 词 之 间 的 
共 现 矩阵 ; 非 负 张 量 分 解 算法 可 以 处 理 高 维 数 
据 形 式 ， 因 此 可 以 直接 对 2017-2021 年 的 所 有 关 
键 词 进行 整体 聚 类 ， 首 先 构造 一 个 三 阶 张 量 ， 
按 年 份 维度 可 划分 为 5 片 ， 每 片 为 2017-2021 年 
期 间 出 现 的 所 有 关键 词 在 某 一 年 份 中 的 共 现 矩 
阵 。 非 负 和 矩阵 分 解 算法 和 非 负 张 量 分 解 算法 的 
聚 类 结果 见 表 3。 

可 以 看 出 ， 非 负 移 阵 分 解 算 法 下 的 聚 类 结 
Ae, 在 2017-2021 年 期 间 各 年 份 的 主要 研究 热点 
大 致 相同 ( 每 个 类 团 中 的 主导 关键 词 大 致 相同 ) ， 
但 每 个 研究 热点 下 的 研究 方向 与 研究 细 度 略 有 
差异 ( 每 个 类 团 中 的 关键 词 数 量 及 种 类 有 所 差 
异 ) ， 而 非 负 张 量 分 解 只 对 2017-2021 年 期 间 的 
关键 词 进行 了 一 次 聚 类 ， 聚 类 结果 与 非 负 符 阵 
分 解 算法 的 结果 整体 较为 吻合 〈 非 负 张 量 分 解 
的 聚 类 结果 中 的 各 主导 词 为 非 负 抢 阵 分 解 聚 类 
结果 5 年 内 出 现 较 多 的 主导 词 ) 。 

韭 负 和 矩阵 分 解 算法 对 2017-2021 年 期 间 的 
关键 词 共 现 和 矩阵 进行 了 逐年 多 次 聚 类 ， 而 非 负 
张 量 分 解 算 法 则 是 利用 五 年 间 关键 词 联系 及 演 
化 得 到 五 年 间 主 题 的 识别 与 演化 ， 即 它 所 聚 类 
出 的 主题 为 这 5 年 间 出 现 的 所 有 主题 ， 然 后 利 


nae a 


_— 


ChinaXiv 合 作 期 刊 
知识 管理 论坛 ，2022 (2) :197-208 
DOI: 10.13266/j.issn.2095-5472.2022.017 


表 3 2017-2021 年 期 间 两 种 聚 类 算法 结果 对 比 
ITERUN EKER CEHE 


主 是 主题 主题 4 
关键 i 权重 关键 ji RE 关键 RE RE 
0.933 | 0.877 — 0.869 0.785 
0216 Human capital 0.187 0.280 Knowledge management systems 0424 
0.075 Relational capital 0.116 Big data 0.104 Semantic web 0.241 
2018 年 关键 词 聚 类 结果 《〈 非 负 年 阵 分 解 ? 
Es 主题 4 主题 5 
权重 权重 关键 权重 权重 
0948 0.868 0.889 0.521 
0.117 Human capital a 0.151 0.434 
0.075 case study 0.117 Organizational performance 0.368 
T ABREREE ¢ EMAED 
3 主题 4 主题 5 
权重 xma RE RE x 权重 
0.955 Knowledge management 0471 0.698 0.594 
0.080 Dynamic business process management 0.453 Knowledge creation 0318 0.442 
0.074 Case management 0352 Organizational performance 0.223 0.418 
2020 年 关键 词 聚 类 结果 《〈 非 负 年 阵 分 解 ? 
主 主题 ? 主题 3 主题 4 主题 5 
= mili is = > 05 bide 2910 
0.936 0.935 Organizational performance 0.512 0.898 transfer 0.910 
Organizational performance 0.099 Higher education = structural equation modelin; = Thailand 0.129 ne 0.206 
EE Knowledge creation aoo R02; Knowledge creation 0.136 
2021F REE ¢ SURED 
es 主题 4 主题 5 
oo ae om nT 
a a a on 0.663 Industry 4 0.457 0.607 
0.140 = = Tacit knowl 0331 Innovation capability 0.519 
0.083 EA 0.295 Conditions of knowledge management | 0.203 


2017- 2 OA ¢ Eak 量 分 解 》 


z= RE 
=< 2 
用 分 解 后 核心 张 量 的 结果 ， 得 到 这 所 有 主题 在 更 为 细致 。 

E ee 此 外 ， 通 过 对 非 负 和 矩阵 分 解 下 的 各 年 份 聚 
一 次 聚 类 便 可 进 f A sis 类 结果 利用 jaccard 相似 度 算法 计算 主题 相似 度 ， 
am 只 别 。 但 是 由 于 非 负 张 量 分 解 只 进行 得 到 主题 演化 脉络 图 ( 见 图 8 ) ， 而 非 负 张 量 4 
， a aS ila eee aR e a 
RAB IREEA ZEKE SRA, MIE E BE OR 题 的 研究 强度 图 ( 见 图 9 ) ， 这 种 主题 研究 强度 
对 各 年 分 别 进行 单独 聚 类 ， 因 此 不 同年 份 可 能 并 非 以 主题 的 关键 词 数量 或 者 频次 来 衡量 ， 而 是 


主题 相似 , 但 内 容 有 所 差异 ， 即 非 负 和 矩 阵 分 解 
在 动态 主题 识别 时 对 各 主题 的 研究 内 容 刻 画 得 


通过 各 年 份 关键 词 之 间 的 共 现 变化 关系 而 得 出 的 
主题 演化 强度 ， 非 负 和 矩阵 分 解 则 较 难 实现 这 点 。 


8 2017-2021 年 知识 管理 领域 


主题 演化 (ARR ABBE AF) 
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该 组 实验 结果 表明 : 如 果 想 对 领域 内 的 研 
究 情 况 进 行 大 致 的 分 析 ， 可 以 采用 非 负 张 量 分 
解 算法 ， 该 算法 简单 快捷 ， 只 需 一 次 聚 类 便 可 
得 到 各 年 份 的 研究 主题 及 研究 强度 等 信息 ， 大 
大 降低 了 算法 的 复杂 度 , 也 减少 了 信息 的 损失 。 
如 果 想 细致 地 分 析 领 域内 各 年 份 的 研究 情况 可 
以 采用 非 负 和 矩阵 分 解 进 行 逐 年 分 析 ， 这 样 可 以 
得 到 各 年 份 主题 的 具体 研究 内 容 及 变化 ， 也 可 
以 得 到 不 同年 份 之 间 的 主题 演化 情况 ,不足 之 
处 在 于 需要 进行 多 次 聚 类 及 数据 处 理 ， 且 难以 
观察 由 于 关键 词 共 现 演化 带 来 的 主题 演化 情况 。 

综 上 ， 在 利用 关键 词 共 现 数据 进行 领域 主 
题 识别 时 ， 选 择 融 合 文献 和 作者 双 视 角 下 的 关 
键 词 共 现 矩阵 数据 更 能 全 面 地 反映 领域 内 的 研 
究 情 况 ; 在 利用 共 现 数据 进行 主题 识别 时 ， 需 
要 对 共 现 数据 利用 相似 度 度 量 进 行 标 准 化 处 理 ， 
其 中 在 对 称 视角 下 进行 标准 化 处 理 可 以 消除 高 
频 关 键 词 的 影响 ， 分 析 领 域内 的 前 沿 动向 ， 在 
非 对 称 视 角 下 进行 标准 化 处 理 可 以 研究 领域 内 
的 热点 问题 ; 在 进行 动态 主题 识别 过 程 中 ， 非 
负 张 量 分 解 算法 可 以 简单 快速 地 获取 领域 内 的 
研究 主题 及 其 在 各 年 的 研究 强度 ， 而 非 负 和 矩阵 
分 解 则 可 以 更 为 细致 深入 地 刻画 主题 以 及 主题 
的 演化 脉络 ， 但 是 需要 进行 多 次 操作 。 


@ 结 束 语 


本 文 针 对 传统 基于 词 共 现 矩阵 的 动态 主题 
识别 研究 中 需要 进行 多 次 聚 类 的 不 足 ， 提 出 一 
种 新 的 数据 构建 方式 及 处 理 方法 ， 基 于 张 量 结 
构 的 数据 形式 可 以 在 词 共 现 和 矩阵 中 融和 时间 维 
度 ， 尽 可 能 地 保留 数据 的 原始 信息 ， 基 于 非 负 
张 量 分 解 算法 的 动态 主题 识别 只 需 进 行 一 次 聚 
类 便 可 得 到 各 年 份 的 主题 情况 ， 有 效 避 免 了 信 
息 的 损失 。 此 外 ， 本 文 还 对 几 种 词 共 现 矩 阵 的 
构造 方式 及 矩阵 处 理 方法 进行 了 探讨 : 在 数据 
集 的 构建 方式 上 ， 分 别 从 文献 视角 、 作 者 视角 
以 及 融合 文献 和 作者 双 视 角 构 建 了 关键 词 共 现 
矩阵; 在 数据 处 理 方式 上 ， 分 别 从 对 称 视角 和 
非 对 称 视角 利用 相似 性 度量 对 共 现 矩阵 进行 了 
标准 化 操作 ， 并 对 比 了 标准 化 操作 对 主题 识别 
结果 的 影响 。 实 验 结果 表明 : 融合 文献 和 作者 
双 视 角 下 的 关键 词 共 现 和 矩阵 可 以 更 全 面 地 反映 
领域 内 的 知识 结构 ， 对 称 视角 下 的 标准 化 处 理 
与 非 对 称 视角 下 的 标准 化 处 理 在 分 析 人 研究 热点 
与 研究 前 沿 上 各 具 优 势 。 本 文昌 在 为 基于 关键 
词 共 现 的 主题 识别 研究 提供 一 些 方法 和 流程 上 
的 参考 ， 提 高 主题 识别 精度 ， 为 科技 决策 提供 
更 好 的 支撑 。 
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Research on Dynamic Topic Recognition Based on the Change of Word Co- 
Occurrence Frequency 


Xi Chongjun Liu Wenbin Ding Kai 
Institute of Science and Technology Information of China, Beijing 100038 

Abstract: [Purpose/Significance] The research on topic recognition is very important to clarify the 
knowledge structure and research hotspots in the field. Dynamic identification of domain topics can help 
researchers understand and master the development trend and future trend of the field. [Method/Process] 
Using the data structure form of tensor, this paper integrated the time dimension into the word co-occurrence 
matrix, and only needed one clustering to identify the dynamic topic. [Result/Conclusion] Tensor structure 
and non-negative tensor decomposition algorithm provide a new method for dynamic topic recognition from 
the perspective of word co-occurrence frequency change. Compared with traditional methods, this method is 
simpler and faster, and effectively avoids the loss of information. 
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